torch.text

简介

依赖

  • NLTK 因为NLTK自身提供了很多NLP数据库的加载,为了不重复造轮子,torchtext尽可能复用NLTK
  • ss

模块

torchtext主要包含两大模块,

torchtext.dataset依赖torchtext.data,一般两者要配合使用。

如何利用pytorch框架,管理其他数据库

  1. 继承torchtext.data.Dataset。 这里的某些类变量未定义,是不是算接口啊?
  2. 定义类变量 urls、dirname、name

貌似就ok了。有没有文档啊

示例

SNLI的例子

1
2
3
4
5
6
7
8
9
from torchtext import data
from torchtext import datasets

inputs = data.Field(lower=True)
answers = data.Field(sequential=False)
train, dev, test = datasets.SNLI.splits(inputs, answers)

type(train) # torchtext.datasets.snli.SNLI
type(train[0]) # torchtext.data.example.Example

主要涉及的两个类

详解

torchtext.data.Dataset

架构

定义一个类,

class SNLI(data.TabularDataset):

torchtext.data

torchtext.dataset

#